ORAgentBench: Nuevo benchmark para agentes LLM en Investigación Operativa
ORAgentBench evalúa agentes LLM en investigación operativa. Solo el 35.5% de tareas son superadas; descubre por qué fallan y las lecciones.
ORAgentBench evalúa agentes LLM en investigación operativa. Solo el 35.5% de tareas son superadas; descubre por qué fallan y las lecciones.
Descubre GauntletBench: expone las limitaciones de agentes IA - solo 19% éxito vs 80% humano en tareas complejas. ¿Listos para el mundo real?
Los agentes de IA autónomos transforman el trabajo del conocimiento: reducen tiempo y costes un 94%, y mejoran la calidad. Estudio de Perplexity.